مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرار گرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد-تنها معرفی می گردد. الگوریتم مذکور از ترکیب الگوریتم یادگیری سارسا با شبکه عصبی RBF به عنوان یک تقریب زننده تابعی حاصل شده است و ما آن را «یادگیری سارسای عصبی» (NSL) می نامیم. ورودی های شبکه جفت حالت و عمل های مساله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. وزن های شبکه به صورت بر خط با توجه به الگوریتم ارائه شده تنظیم می گردند. به عنوان یک شرط لازم همگرایی ما همچنین وجود نقاط ایستای منطبق بر نقاط ثابت الگوریتم «تکرار تقریب ارزش عمل» برای NSL را اثبات می نماییم. نتایج شبیه سازی ارائه شده در مورد مسائل خودرو در کوهستان و آکروبات حاکی از عملکرد مناسب تر روش ارائه شده از لحاظ سرعت آموزش و کیفیت عملکرد می باشد.